Reinforcement Learning

基本的な解説

Mathworks - これだけは知っておきたい 3 つのこと

種類

https://gyazo.com/2adeba83fdf56c83553b0b84596e786b

深層強化学習アルゴリズムまとめ、今井翔太twitter

Q学習

DQN

DDQN, Dueling Net, Gorila, Prioriezed Experience Replay

Ape-X, R2D2

SARSA

Acto-Critic

A3C

UNREAL, ACER

DDPG, TRPO, NAC

PPO2

Policy gradients

REINROECE, 'Vanilla'

強化学習ライブラリ

KerasRL

Keras-RLを用いた深層強化学習コト始め

ChainereRL

深層強化学習ライブラリChainerRL

Stable Baseline

@H1dek1 参考：Stable BaselinesとOpenAI Gymで強化学習の環境構築

stable-baselinesは中でtensorflowを使用するが、tensorflow2には対応していないため、tensorflow１をインストールする必要がある。最新のpip3==21.x.xではtensorflow1がインストールできないため、pip3==20.x.xを使用しなければならない。

そのためにPython3.8ではなく、Python3.7にしなければならないということだ。

stalbe_baselinesをインポートすると以下のエラー、いろいろとダウングレードの必要があるようだ。

$ ModuleNotFoundError: No module named 'tensorflow.contrib'

Suttonの分類

動的計画法、モンテカルロ法、TD学習

ブートストラップ法

(wiki) 統計学においては、母集団の推定値の性質を、近似分布に従って標本化したときの性質を計算することで推定する手法。

東京大学工学部　でんしじょうほうこう　松尾豊研究室